"""
https://tieba.baidu.com/f?kw=浙江工贸10
https://tieba.baidu.com/f?kw=浙江工贸50
https://tieba.baidu.com/f?kw=浙江工贸100

八区网页数据：
1.要不要登录才能访问
需要登录才能访问的话，要考虑用cookie或session来实现
2.Get/post请求
get请求，需要知道请求url，请求头（user_agent）
post请求：URL，请求头（user-agent）
post请求:url,请求头（user_agent）.请求体数据（formdata）
"""
import requests

def load_page(url,file_name):
    headers={
        'User - Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.102 Safari/537.36'
    }
    html=requests.get(url,headers=headers)
    print(f'正在保存{file_name}')
    with open(file_name,'w',encoding='utf-8') as f:
        f.write(html.content.decode())

#1)让用户输入要爬取的贴吧，还有企事业和结束页
kw=input('请输入要爬取的贴吧名:')
begin_page=int(input('请输入企事业'))
end_page=int(input('请输入结束页'))

#2）根据用户输入，拼接yul的kw
base_url="https://tieba.baidu.com/f?kw"+kw
print(base_url)

#3）根据输入的起始业和结束页，循环去拼接完整的url
#range():左闭右开,不包括结束位
for page in range(begin_page,end_page+1):
    pn =(page -1)*50
    url=base_url+"&pn"+str(pn)
    # print(url)
    #print(url)
    #拼接文件夹
    file_name='第'+str(page)+'页.html'
    load_page(url,file_name)

#4）爬取每一页数据，保存在文件中
